技術問答
技術文章
iT 徵才
Tag
聊天室
2023 鐵人賽
登入/註冊
問答
文章
Tag
邦友
鐵人賽
搜尋
第 12 屆 iThome 鐵人賽
DAY
16
0
AI & Data
今晚,我想來點經典NLP論文。
系列 第
16
篇
[D16] Emotion Intensities in Tweets (2017) 1/2
12th鐵人賽
victor.huang
2020-09-30 21:16:20
751 瀏覽
分享至
Key Points
大部分情緒相關資料集,只有涵括分類,而沒有情緒的強度。
Best–Worst Scaling (BWS) 標記法 (Louviere, 1991))
可以有效率的標記資料,效果也相當不錯。
給一個 4 元組,請標記者標出
最相符
(分數最高)與
最不相符者
(分數最低)。
這樣的話,總共只有六組的順序關係,可以輕易獲得其中五組。
e.g. A B C D
若 A 最相符(分數最高),D 最不相符(分數最低)。
可以得到 A > D, B > D, C > D, A > C, A > B,僅有 B > C 沒得到而已。
有效地減輕標記者的負擔。
過去的方法,請標記者標出 1 到 100 分的分數,並不容易。
兩個標記者對於何為 80 分的定義就不同了。
同一個標記者在於不同時間點,也可能會標出不一樣的結果。
粒度太細,概念太模糊。
標記者對於不同的數字的認知也不會是線性的:scale region bias。
資料集收集:
為了瞭解每個詞的強度,對於每種情緒都先收集50 ~ 100 個 query terms。
如生氣的話會是:angry, mad, frustrated, annoyed, peeved, irritated, miffed, fury, antagonism。
從 Roget’s Thesaurus 收集而來。
這個字典已經把大量的詞彙分群,並且每個群也給了其代表詞(head word)。
用 Twitter API 搜尋帶有 query term 的 tweets。
丟棄 Retweets 和帶有 URL 的 tweets。
為了較為平均的對待每種情緒,資料集又做了以下的過濾。
每個 query term 至多包含 50 個 tweets 。
每個 使用者-query term 組合至多出現一次。
避免找到太偏個人化的用法。
為了理解一般人對於情緒字眼被使用在 Hashtag 裡的強度感受,以以下的方式建立了一個子資料集。
鎖定 query term 以 hashtag 形式出現,且出現在純由 hashtags 構成的文章後半段的文章。
這樣才不會打亂內文。
另一方面對於標記者來說,他們是純粹把這個 query term 作為 hashtag 看待來給強度分數。
如果是在內文中,很可能被前後文影響。
移除這些文章中的 hashtag query term。
最後資料集(7,097 筆)由三個部分構成:
Hashtag Query Term Tweets (HQT Tweets):1030 筆
query term 以 hashtag 的形式出現,且出現在純由 hashtags 構成的文章後半段的文章。
No Query Term Tweets (NQT Tweets):1030 筆
複製上面的子資料集,但是移除 hashtag query term。
Query Term Tweets (QT Tweets):5037 筆
來自兩種來源:
有 query term 出現在內文中。
有 query term hashtag 和其他非 hashtag 文字。
資料集標記:
按照 BWS 標記法,給標記者 4 元組,標出最相符與最不相符。
4 元組按照 random maximum-diversity selection (RMDS) 產生。
最大限度的讓每個 tweet 與多元一點的其他 tweet 配對上。
因為一篇只標出最高和最低,要是有重複的兩個出現在不同的四元組,又剛好都是最高和最低,那兩篇標記就只發揮了一篇標記的作用了。
具體怎麼做的並不清楚。
提出了 2 * 7,097 個四元組讓人標記。
用 CrowdFlower 標記,每個四元組會由三個人標記。
BWS 標記的結果,用簡單的方式轉換成分數。
某 tweet 被標成最相符的次數,減掉被標成最不相符的次數,除以總出現次數。
結值域在 [-1, 1],但情緒分數是單極分數(unipolar scale),故再平移收縮轉換成 [0, 1]。
留言
追蹤
檢舉
上一篇
[D15] Weakly Supervised User Profile Extraction from Twitter (2014) 2/2
下一篇
[D17] Emotion Intensities in Tweets (2017) 2/2
系列文
今晚,我想來點經典NLP論文。
共
17
篇
目錄
RSS系列文
訂閱系列文
1
人訂閱
13
[D13] Weakly Supervised User Profile Extraction from Twitter (Li et al., 2014) 1/2
14
[D14] Weakly Supervised User Profile Extraction from Twitter (Li et al., 2014)
15
[D15] Weakly Supervised User Profile Extraction from Twitter (2014) 2/2
16
[D16] Emotion Intensities in Tweets (2017) 1/2
17
[D17] Emotion Intensities in Tweets (2017) 2/2
完整目錄
直播研討會
{{ item.subject }}
{{ item.channelVendor }}
{{ item.webinarstarted }}
|
{{ formatDate(item.duration) }}
直播中
立即報名
尚未有邦友留言
立即登入留言
iThome鐵人賽
參賽組數
1123
組
團體組數
52
組
累計文章數
23097
篇
完賽人數
656
人
看影片追技術
看更多
{{ item.subject }}
{{ item.channelVendor }}
|
{{ formatDate(item.duration) }}
直播中
熱門tag
看更多
15th鐵人賽
13th鐵人賽
14th鐵人賽
12th鐵人賽
11th鐵人賽
鐵人賽
2019鐵人賽
2018鐵人賽
javascript
2017鐵人賽
python
windows
php
c#
windows server
linux
css
程式設計
react
vue.js
熱門問題
網路佈線請益
一般硬體防火牆,對外 大多要限制那些服務?
請問有人可以幫我下載這個百度雲盤檔案到Google drive嗎?
請問如何讓20出頭的人,由不會到會呢
租用電腦服務
想請問公司信箱網域被GMAIL封鎖的解決方法
LINE群組是否有進階功能
如何在AD上面派送文字訊息給user
Rocky Linux 登入問題
這是信箱被盜了嗎
熱門回答
網路佈線請益
請問如何讓20出頭的人,由不會到會呢
一般硬體防火牆,對外 大多要限制那些服務?
FAT32 有分什麼版本嗎? CCTV 不支持
PC安裝ESXi 8.0備份問題
熱門文章
使用 AWS建立商品管理系統
Bigme B251 25.1吋 彩色電子紙螢幕
線上點餐系統
所有常用HTML標籤的層級和用途
如何使用AWS AI Service Cards – Amazon Rekognition ?
IT邦幫忙
×
標記使用者
輸入對方的帳號或暱稱
Loading
找不到結果。
標記
{{ result.label }}
{{ result.account }}